检索结果

Select

1. 改进萤火虫群算法协同差分隐私的干扰轨迹发布

彭鹏, 倪志伟, 朱旭辉, 陈千

《计算机应用》唯一官方网站 2024, 44 (2): 496-503. DOI: 10.11772/j.issn.1001-9081.2023030259

摘要（62）

HTML （0）

PDF （2085KB）（56）

针对历史轨迹加噪发布干扰轨迹时数据集的冗余问题和轨迹形状相似带来的隐私泄露风险，提出轨迹数据先约简后泛化再进行差分隐私加噪的基于改进萤火虫群优化求解的干扰轨迹发布保护机制（IGSO-SDTP）。首先，基于位置显著点约简历史轨迹数据集；其次，结合k?匿名和差分隐私对简化后的轨迹数据集分别进行泛化和加噪；最后，设计了兼顾距离误差和轨迹相似性的加权距离，并以加权距离为评价指标，基于改进萤火虫群优化（IGSO）算法求解加权距离小的干扰轨迹。在多个数据集上的实验结果表明，与RD（Differential privacy for Raw trajectory data）、SDTP（Trajectory Protection of Simplification and Differential privacy）、LIC（Linear Index Clustering algorithm）、DPKTS（Differential Privacy based on K-means Trajectory shape Similarity）相比，IGSO-SDTP方法得到的加权距离分别降低了21.94%、9.15%、14.25%、10.55%，说明所提方法发布的干扰轨迹可用性和稳定性更好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于聚类分析的差分隐私高维数据发布方法

陈恒恒, 倪志伟, 朱旭辉, 金媛媛, 陈千

计算机应用 2021, 41 (9): 2578-2585. DOI: 10.11772/j.issn.1001-9081.2020111786

摘要（330）

PDF （1281KB）（314）

针对已有差分隐私高维数据发布方法无法有效兼顾数据间复杂属性的关联关系和计算成本的问题，提出一种基于聚类分析技术的差分隐私高维数据发布方法PrivBC。首先，基于 K-means++设计属性聚类方法，引入最大信息系数量化属性间的关联关系，并对具有高度关联关系的数据属性进行聚类。其次，对聚类产生的各个数据子集进行如下操作：计算关系矩阵以缩减属性对的候选空间，并构建满足差分隐私的贝叶斯网络。最后，根据贝叶斯网络采样每个属性，并合成新的隐私数据集进行发布。与PrivBayes方法相比，PrivBC方法的误分类率和运行时间分别平均降低了12.6%和30.2%。实验结果表明，所提方法在有效保证数据可用性的基础上，可以显著提高计算效率，为高维数据的隐私发布提供了新思路。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于粗糙集的非监督快速属性选择算法

白鹤翔, 王健, 李德玉, 陈千

计算机应用 2015, 35 (8): 2355-2359. DOI: 10.11772/j.issn.1001-9081.2015.08.2355

摘要（602）

PDF （773KB）（349）

针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于特征本体的文本流主题演化

陈千, 桂志国, 郭鑫, 向阳

计算机应用 2015, 35 (2): 456-460. DOI: 10.11772/j.issn.1001-9081.2015.02.0456

摘要（514）

PDF （886KB）（379）

针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。

参考文献 | 相关文章 | 多维度评价

Select

5. 中文文本情感分析综述

魏韡向阳陈千

计算机应用 2011, 31 (12): 3321-3323.

摘要（901）

PDF （566KB）（4636）

由于主观性文本有很多应用价值，情感分析近年来引起了很多研究人员的兴趣。情感分析是对主观性文本进行挖掘与分析，获取有用的知识和信息。针对中文文本情感分析的研究现状与进展进行总结。首先按粒度层次，从词语级、语句级、篇章级三个不同粒度层次细致地介绍相关的技术，再按文本的类型，分析了产品评论和新闻评论的研究进展。接着介绍了中文文本情感分析的评测和相关资源，最后总结了中文文本情感分析的研究难点与未来的研究方向。